Skip to content

Create j_ai_avator.md#119

Open
jeongmossland wants to merge 1 commit intomainfrom
j_ai_avator_ai_idea
Open

Create j_ai_avator.md#119
jeongmossland wants to merge 1 commit intomainfrom
j_ai_avator_ai_idea

Conversation

@jeongmossland
Copy link
Contributor

No description provided.

@mossland
Copy link
Contributor

💬 Review Comments (EN)

1. Overall Understanding & Missing Details

Item What We Know What We Need to Clarify
Service Type “Metaverse feature” inside Mossland, text-based AI avatar, whisper mode Is it just a single feature in the current Mossland client or a spin-off app? Which game engine / client do we target (Unity, Unreal, WebGL)?
Target Users & Use-cases ① Re-live memories with a deceased relative ② Talk to your future-self ③ Historical figures Which use-case is first for MVP? A single focus will greatly change data policy & UX.
Data Ingestion “Upload messenger / SNS logs” 1) Supported services (Kakao, WhatsApp, Instagram?) 2) File format & max size 3) How do we verify consent of third-party chat participants?
Model Strategy “Train new model or reuse LLM” a) Per-user fine-tune, RAG, or only prompt-engineering? b) Expected # of daily fine-tunes → GPU budget?
Privacy & Compliance Mentioned as a challenge Which jurisdictions do we target first (KR only? Global)? Need an explicit user-consent flow, data-deletion API, and child-safety policy.
Monetization Not specified One-off avatar purchase, subscription for extra memory size, or B2B licensing? Need at least one revenue path.
Success Metric “Increase session time” only Any quantitative goal? (e.g., +15 % daily session length in Q4)

2. Technical / Resource Feasibility

  1. Custom fine-tuning per user can cost $3–10 per run on current GPT-4-turbo fine-tune APIs. At 10 k users, the monthly bill quickly blooms.
    • Alternative: prompt-style-transfer or light LoRA on an open 7-13 B model hosted in-house.
  2. Real-time inference latency target inside a VR/Metaverse world should be <1.5 s.
    • Might need an on-premise GPU cluster or a fast 3rd-party endpoint with WebSocket support.
  3. With our internal dev capacity (≈3 FTE engineers, 2 designers), an MVP limited to text chat + 1 avatar style looks realistic in 3–4 months. Full voice cloning & realistic 3D lipsync would require external help or a second phase.

3. Suggested Next Milestones

  1. Choose MVP persona:
    ☐ “Chat with your own past chat-log clone” ☐ “Talk to a famous historical figure” ☐ Other (______)
  2. Architecture draft:
    • Client: Unity (C#) whisper UI panel → REST/WebSocket →
    • API gateway (Java/Spring) auth & rate-limit →
    • Python inference micro-service (FastAPI) on GPU-enabled K8s.
  3. Data pipeline spec:
    • CSV/JSON chat export → S3 → Async sanitizer → Vector store.
  4. Legal & policy checklist (KR PIPA, GDPR, deepfake disclosure).
  5. Monetization hypothesis & KPI.

4. Questions to Move Forward

  1. Which single use-case do we tackle first for the MVP?
  2. How many avatars (and daily active users) do we expect in the first 6 months?
  3. Do we require voice from day 1, or is text-only acceptable initially?
  4. Are we comfortable depending on an external LLM provider, or do we want an on-prem open-source model?
  5. What is the acceptable per-user cost ceiling (training + inference)?

Please let us know the answers so we can break down tasks for design and engineering immediately.


💬 리뷰 코멘트 (KR)

1. 전반적 이해 & 부족한 정보

항목 현재 내용 추가로 필요한 정보
서비스 형태 Mossland 내부 메타버스 기능, 텍스트 기반 AI 아바타, 귓속말 모드 현행 Mossland 클라이언트(유니티/언리얼/웹?)에 통합인지, 별도 앱인지?
타깃/사용 예시 ① 고인과 대화 ② 미래의 나 ③ 역사 인물 MVP에서 1순위 시나리오가 무엇인지?
데이터 수집 “메신저/SNS 로그 업로드” 1) 지원 서비스 종류 2) 파일 포맷·용량 3) 제3자 동의 확인 방식
모델 전략 “신규 모델/기존 LLM 활용” a) 사용자별 파인튜닝? b) RAG? c) 프롬프트만? 파인튜닝 숫자→GPU 비용?
개인정보/규제 과제로만 언급 우선 대상 국가(한국? 글로벌?) → 동의, 삭제 API, 미성년자 보호 정책 필요
수익화 미정 아바타 1회 구매, 구독, B2B API 등 최소 한 가지 모델 필요
성공지표 “체류시간 증가” 정량 목표 필요 (예: Q4까지 DAU 체류시간 +15 %)

2. 기술·리소스 가능성

  1. 사용자별 GPT-4-t 파인튜닝: 1회 3–10 달러 수준 → 1만 명 시 월 단위 큰 비용
    • 대안: 오픈 7–13 B 모델 + LoRA, 스타일 프롬프트
  2. 메타버스 실시간 답변 지연 목표 <1.5 초
    • 온프렘 GPU 클러스터 또는 고속 외부 API 필요
  3. 내부 인력(FE·BE·AI 각 1명, 디자이너 2명)으로는 텍스트 기반 MVP 3–4 개월이 현실적
    • 음성 합성‧3D 립싱크는 Phase 2 필요

3. 제안 일정

  1. MVP 페르소나 결정
    ☐ “내 채팅 로그 기반 아바타” ☐ “역사 인물” ☐ 기타 (____)
  2. 아키텍처 초안
    • 클라이언트: Unity 귓속말 UI → WS/REST →
    • API 게이트웨이(Java/Spring) →
    • 파이썬 추론(FastAPI) GPU K8s
  3. 데이터 파이프라인
    • CSV/JSON 업로드 → S3 → 비식별화 → 벡터스토어
  4. 법적 체크리스트 (PIPA, GDPR, 딥페이크 고지)
  5. 수익 모델·KPI 가설 수립

4. 추가 질문

  1. MVP에서 먼저 해결할 단일 시나리오는 무엇인가요?
  2. 6개월 내 예상 아바타 생성/DAU 규모는?
  3. 1차 릴리스에서 음성 합성이 꼭 필요할까요, 텍스트만으로도 가능한가요?
  4. 외부 LLM(예: OpenAI) 의존이 가능한가요, 온프렘 모델 선호인가요?
  5. 사용자 1인당 허용 가능한 비용(학습+추론)은 어느 정도로 설정하시겠습니까?

위 질문에 대한 답변을 주시면 개발·디자인 팀이 바로 작업 분배를 시작할 수 있습니다. 😊

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants